JSAI2026 学生新聞の紙面画像を対象とした自動テキスト認識ワークフローの開発
新聞紙面のテキスト化の意義
歴史学・人文社会科学の研究基盤である
良質な言語資源である
日本語新聞紙面の難しさ
縦書き
多段組
読み順の判断
→ OCRだけではだめ
レイアウト検出の技術が必要
ワークフロー
PDFファイルの埋め込み文字から領域情報を抽出
領域アノテーションを作成
結果
画像クラスではリコールが低い
多くの画像領域を見落としている
文字認識
切り出した行画像に対する文字認識は一定の水準に達している
前後の処理による影響が大きいのかも
#聴講メモ